交叉路口是自动驾驶任务最具挑战性的场景之一。由于复杂性和随机性,在相交处的基本应用(例如行为建模,运动预测,安全验证等)在很大程度上取决于数据驱动的技术。因此,交叉点中对流量参与者(TPS)的轨迹数据集的需求很大。目前,城市地区的大多数交叉路口都配备了交通信号灯。但是,尚无用于信号交叉点的大规模,高质量,公开可用的轨迹数据集。因此,在本文中,在中国天津选择了典型的两相信号交叉点。此外,管道旨在构建信号交叉数据集(SIND),其中包含7个小时的记录,其中包括13,000多种TPS,具有7种类型。然后,记录了信德的交通违规行为。此外,也将信德与其他类似作品进行比较。 SIND的特征可以概括如下:1)信德提供了更全面的信息,包括交通信号灯状态,运动参数,高清(HD)地图等。2)TPS的类别是多种多样和特征的,其中比例是脆弱的道路使用者(VRU)最高为62.6%3)显示了多次交通信号灯违反非电动车辆的行为。我们认为,Sind将是对现有数据集的有效补充,可以促进有关自动驾驶的相关研究。该数据集可通过以下方式在线获得:https://github.com/sotif-avlab/sind
translated by 谷歌翻译
数据增强大大增加了基于标记的数据获得的数据量,以节省数据收集和标签的费用和人工。我们提出了一种新的数据增强方法,称为九点MLS(ND-MLS)。基于图像Defor-Mation的概念提出了这种方法。图像根据控制点的控制点变形,该控制点由ND-ML计算出来。该方法可以在短时间内为一个存在的数据集生成2000多个图像。为了验证此数据增强方法,进行了广泛的测试,涵盖了计算机视觉的3个主要任务,即分类,检测和分割。结果表明,在分类中,每类使用10张图像进行训练,VGGNET可以通过ND-MLS在手写数字的MNIST数据集上获得92%的TOP-1 ACC。在Omniglot数据集中,随着字符类别的增加,几乎没有弹出的准确性会降低。但是,ND-MLS方法具有稳定的性能,并在100个不同的手写字符分类任务上在RES-NET中获得96.5 TOP-1 ACC; 2)在细分中,在仅十张原始图像的前提下,DeepLab分别在瓶子,马和草测试数据集中获得93.5%,85%和73.3%的M_IOU(10),而CAT测试数据集则获得86.7% M_IOU(10),带有侦听模型; 3)Yolo V4只有10个类别的原始图像,分别获得100%和97.2%的瓶子和马匹检测,而CAT数据集则使用Yolo V3获得93.6%。总而言之,ND-ML只能通过仅使用几个数据来在分类,对象检测和语义分割任务上表现良好。
translated by 谷歌翻译
我们提出了一种新颖的方法,可以可靠地估计相机的姿势,并在极端环境中获得的一系列图像,例如深海或外星地形。在这些挑战性条件下获得的数据被无纹理表面,图像退化以及重复性和高度模棱两可的结构所破坏。当天真地部署时,最先进的方法可能会在我们的经验分析确认的那些情况下失败。在本文中,我们试图在这些极端情况下使摄像机重新定位起作用。为此,我们提出:(i)一个分层定位系统,我们利用时间信息和(ii)一种新颖的环境感知图像增强方法来提高鲁棒性和准确性。我们广泛的实验结果表明,在两个极端环境下我们的方法有利于我们的方法:将自动的水下车辆定位,并将行星漫游者定位在火星样的沙漠中。此外,我们的方法仅使用20%的培训数据就可以在室内基准(7片数据集)上使用最先进的方法(7片数据集)实现可比性的性能。
translated by 谷歌翻译
3D多对象跟踪旨在唯一,始终如一地识别所有移动实体。尽管在此设置中提供了丰富的时空信息,但当前的3D跟踪方法主要依赖于抽象的信息和有限的历史记录,例如单帧对象边界框。在这项工作中,我们开发了对交通场景的整体表示,该场景利用了现场演员的空间和时间信息。具体而言,我们通过将跟踪的对象表示为时空点和边界框的序列来重新将跟踪作为时空问题,并在悠久的时间历史上进行重新制定。在每个时间戳上,我们通过对对象历史记录的完整顺序进行的细化来改善跟踪对象的位置和运动估计。通过共同考虑时间和空间,我们的代表自然地编码了基本的物理先验,例如对象持久性和整个时间的一致性。我们的时空跟踪框架在Waymo和Nuscenes基准测试中实现了最先进的性能。
translated by 谷歌翻译
预测人类运动对于辅助机器人和AR/VR应用至关重要,在这种机器人和AR/VR应用中,与人类的互动需要安全舒适。同时,准确的预测取决于理解场景上下文和人类意图。尽管许多作品研究场景 - 意识到人类的运动预测,但由于缺乏以自我为中心的观点,这些观点揭示了人类意图以及运动和场景的多样性有限,因此后者在很大程度上并没有得到充实的影响。为了减少差距,我们提出了一个大规模的人类运动数据集,该数据集可提供高质量的身体姿势序列,场景扫描以及以自我为中心的视图,目光注视,这是推断人类意图的代孕。通过使用惯性传感器进行运动捕获,我们的数据收集与特定场景无关,这进一步增强了从主题中观察到的运动动力学。我们对利用眼睛目光进行以自我为中心的人类运动预测的优势进行了广泛的研究,并进行了各种最新的架构。此外,为了实现目光的全部潜力,我们提出了一种新型的网络体系结构,该架构可以在目光和运动分支之间进行双向交流。我们的网络在拟议的数据集上实现了人类运动预测的最高性能,这要归功于眼睛凝视的意图信息以及动作调制的DeNocied Ceaze特征。代码和数据可以在https://github.com/y-zheng18/gimo上找到。
translated by 谷歌翻译
作为一种流行的几何表示,点云在3D视觉中引起了很多关注,导致自动驾驶和机器人中的许多应用。在点云上学习一个重要的尚未解决的问题是,如果使用不同的过程或使用不同的传感器捕获,则相同对象的点云可以具有显着的几何变化。这些不一致地诱导域间隙,使得在一个域上培训的神经网络可能无法概括他人。减少域间隙的典型技术是执行逆势训练,以便特征空间中的点云可以对齐。然而,对抗性训练易于落入退化的局部最小值,导致负适应性收益。在这里,我们提出了一种简单而有效的方法,可以通过采用学习几何感知含义的自我监督任务来提出对点云的无监督域适应的方法,这在一次拍摄中扮演两个关键角色。首先,通过对下游任务的隐式表示保留点云中的几何信息。更重要的是,可以在隐式空间中有效地学习域特定变体。我们还提出了一种自适应策略,以计算由于在实践中缺乏形状模型而计算任意点云的无符号距离场。当结合任务丢失时,所提出的优先表现出最先进的无监督域适应方法,依赖于对抗域对齐和更复杂的自我监督任务。我们的方法在PointDA-10和Graspnet数据集上进行评估。代码和培训的型号将公开可用。
translated by 谷歌翻译
我们提出了一个框架,以便不断学习以对客观的视觉学习和理解为中心的表示。现有的对象形式依赖于个性化场景中的对象的监督,或者执行无监督的解剖学,这几乎无法处理现实世界中的复杂场景。为了减轻注释负担并放宽对数据统计复杂性的限制,我们的方法利用相互作用,从而有效地在学习以特征对象的表示的同时有效地采样对象和相应的训练信号的不同变化。在整个学习过程中,对象以随机顺序逐一流动,具有未知的身份,并且与可以通过卷积高度合成每个对象的潜在权重的潜在代码相关联。此外,采用了学习对象的重新识别和遗忘预防,以使学习过程有效且坚固。我们对拟议框架的关键特征进行了广泛的研究,并分析了学习的表示的特征。此外,我们展示了所提出的框架在学习表示中可以提高下游任务中的标签效率的能力。我们的代码和培训的型号将公开可用。
translated by 谷歌翻译
建立可以与3D室内环境进行交互的体现智能代理,近年来已收到了越来越多的研究关注。虽然大多数作品专注于单一对象或代理 - 对象视觉功能和可供性,但我们的工作建议研究一种新的视觉关系,对感知和模型 - 对象间功能关系也很重要(例如,开关墙壁打开或关闭光线,遥控器操作电视)。人类常常花费很少或不努力推断这些关系,即使在进入新房时,即使在进入新房时,通过使用我们的强大的先验知识(例如,我们知道该按钮控制电气设备),或者在不确定性的情况下仅使用一些探索性相互作用(例如,多个开关和相同房间的灯)。在本文中,我们在3D室内环境中建立了AI系统学习对象间功能关系的第一步,通过培训大规模场景和设计互动政策,以有效地探索培训场景和快速设计互动政策,以便进行建模的主要技术贡献适应新颖的测试场景。我们根据AI2thor和Portnet数据集创建一个新的基准,并进行广泛的实验,证明了我们提出的方法的有效性。结果表明,我们的模型成功地了解了在复杂3D场景中探索对象内功能关系的前沿和快速交互式的策略。几项消融研究进一步验证了每个提出的模块的有用性。
translated by 谷歌翻译
We describe a simple method for unsupervised domain adaptation, whereby the discrepancy between the source and target distributions is reduced by swapping the lowfrequency spectrum of one with the other. We illustrate the method in semantic segmentation, where densely annotated images are aplenty in one domain (e.g., synthetic data), but difficult to obtain in another (e.g., real images). Current state-of-the-art methods are complex, some requiring adversarial optimization to render the backbone of a neural network invariant to the discrete domain selection variable. Our method does not require any training to perform the domain alignment, just a simple Fourier Transform and its inverse. Despite its simplicity, it achieves state-of-the-art performance in the current benchmarks, when integrated into a relatively standard semantic segmentation model. Our results indicate that even simple procedures can discount nuisance variability in the data that more sophisticated methods struggle to learn away. 1
translated by 谷歌翻译
沟通对于代理人共享信息并做出良好决定的许多多代理强化学习(MARL)问题很重要。但是,当在存在噪音和潜在攻击者的现实应用程序中部署训练有素的交流代理商时,基于沟通的政策的安全就会成为一个严重的问题,这些问题被忽视。具体而言,如果通过恶意攻击者操纵沟通信息,依靠不信任的交流的代理可能会采取不安全的行动,从而导致灾难性后果。因此,至关重要的是要确保代理人不会被腐败的沟通误导,同时仍然从良性的交流中受益。在这项工作中,我们考虑了一个具有$ n $代理的环境,攻击者可以任意将通信从任何$ c <\ frac {n-1} {2} $代理商转换为受害者代理。对于这种强大的威胁模型,我们通过构建一个消息集结策略来提出可认证的辩护,该策略汇总了多个随机消融的消息集。理论分析表明,这种消息安装策略可以利用良性通信,同时确保对对抗性交流,无论攻击算法如何。在多种环境中的实验证明,我们的防御能够显着改善受过训练的政策对各种攻击的鲁棒性。
translated by 谷歌翻译